智能论文笔记

Offline Meta-Reinforcement Learning for Industrial Insertion

Tony Z. Zhao , Jianlan Luo , Oleg Sushkov , Rugile Pevceviciute , Nicolas Heess , Jon Scholz , Stefan Schaal , Sergey Levine

分类：机器人

2021-10-08

强化学习（RL）原则上可以让机器人自动适应新任务，但是当前的RL方法需要大量的试验来实现这一目标。在本文中，我们通过元学习的框架来快速适应新任务，该框架利用过去的任务学习适应了对工业插入任务的特定关注。快速适应至关重要，因为大量的机器人试验可能会损害硬件件。另外，在不同的插入应用之间的经验中，有效的适应性也可以在很大程度上彼此利用。在这种情况下，我们在应用元学习时解决了两个具体的挑战。首先，传统的元元算法需要冗长的在线元训练。 We show that this can be replaced with appropriately chosen offline data, resulting in an offline meta-RL method that only requires demonstrations and trials from each of the prior tasks, without the need to run costly meta-RL procedures online.其次，元RL方法可能无法推广到与元训练时间时看到的新任务太大的任务，这在高成功率至关重要的工业应用中构成了特定的挑战。我们通过将上下文元学习与直接在线填充结合结合来解决这一问题：如果新任务与先前数据中看到的任务相似，则可以立即适应上下文的元学习者，如果它太不同，它会逐渐通过Finetuning适应。我们表明，我们的方法能够快速适应各种不同的插入任务，成功率为100％仅使用从头开始学习任务所需的样本的一小部分。实验视频和详细信息可从https://sites.google.com/view/offline-metarl-insertion获得。

translated by 谷歌翻译